Skip to content

Matmul Fusion

这是在完成一套关于 Matmul Fusion 的笔记后,整理成的一个专题页。Matmul Fusion 的原始题目在这里:https://zhao-han.notion.site/1-Triton-34ccfdeeea6f803fa973fff139631390

这个专题页把这一组笔记放在一起,后续继续往这个文件夹里加文章时,也可以继续从这里进入。

上次更新于:

文章列表

7 篇

II.CUDA & GPU 基础

>- 做问题一的时候总觉得少点什么,原来是缺了这一节课没有听,所以grid啥的知识点不明白。 ![[Pasted image 20260510200059.png|800]] - SM/SMP(

IV.Occupancy与Scheduling

这一个版面主要回答的问题是 *一个kernel的多个block是怎么在SM内和SM间怎么调度的;限制一个SM上同时执行多少个block的因素是哪三个?* 我觉得我还需要知道triton整体的这个发射到

I.Matmul学习笔记

>https://hao-ai-lab.github.io/cse234-w25/ >karpathy/nanoGPT: The simplest, fastest repository

III.Punica: Multi-Tenant LoRA Serving

- 参考资料 - pp018 Punica - 论文精读学习笔记 - 剖析GPT推断中的批处理效应 设计了一个CUDA内核,叫做分段聚合矩阵向量乘法(SGMV) 假设`W`的形状为`[

问题1:算子1、3融合

针对问题1之前的错误,由于理解有误,之前书写的实际上是纵向融合。题目中提到*三个算子串行执行时,算子1和算子2各自都只能用到GPU的一小部分算力,但它们仍然各自占用一次kernel launch和一次

问题1:Triton矩阵乘算子融合

这个任务可以这么理解,这个矩阵乘法相加也就是LoRA的思想,下图是GPT-5.4给我的解释。 ![[Pasted image 20260506205930.png|500]] 然后再对应看一下下面这个

Graph

符号式的是整个都一起写好框架,然后再运行,所以数据是后注入的 命令式的和python一样,是直接运行的,写一行执行一行 控制流转为数据流,在Symbolic里面通过boolean控制数据是否为空,在结